CLP: Predicción de Longitud de Colocación para Inferencia Multi-Token Adaptativa
CLP acelera inferencia de LLMs hasta 1.29x sin pérdida. Predice longitud de colocación para decodificación multi-token adaptativa.
CLP acelera inferencia de LLMs hasta 1.29x sin pérdida. Predice longitud de colocación para decodificación multi-token adaptativa.